04. 实现
实现:MC 预测(状态值)
你可以在下方找到(首次经历)MC 预测(状态值)的伪代码。( 你可以选择实现首次经历或所有经历 MC 方法。在二十一点游戏中,首次经历和所有经历方法返回的结果一样。 )
如果你想详细了解首次经历和所有经历 MC 方法之间的区别,建议你阅读 此论文 的第 3 部分。结果在第 3.6 部分进行了总结。作者指出:
- 所有经历 MC 存在 偏差 ,而首次经历 MC 不存在偏差(请参阅 Theorems 6 和 7)。
- 一开始,所有经历 MC 具有更低的 均方误差 (MSE) ,但是随着经历更多的阶段,首次经历 MC 的均方误差更低(请参阅 Corollary 9a 和 10a,以及图 4)。
当每个状态的经历次数接近无穷大时,首次经历和所有经历方法都 保证会收敛于 真值函数。( 换句话说,只要智能体在每个状态获取足够的经验,值函数估值将非常接近真值。 )对于首次经历 MC,收敛性遵守 大数定律 ,详情请参阅该 教科书 的第 5.1 部分。
请在下个部分完成
Monte_Carlo.ipynb
的
第 0 部分:探索 BlackjackEnv
和
第 1 部分:MC 预测:状态值
。请记得保存内容!
你可以查看
Monte_Carlo_Solution.ipynb
的相应部分,检查你的解决方案是否正确。